Автомати́ческая обрабо́тка те́кста -
преобразование текста на искусственном или
естественном языке с помощью ЭВМ. Прикладные
системы и теория А. о. т. начали создаваться в конце 50‑х гг. 20 в.
(США, СССР, Франция, ФРГ и др.) и развивались в нескольких различных
приложениях: в системном программировании, издательском деле и в
вычислительной лингвистике. В системном программировании, предметом
которого является создание программного обеспечения функционирования ЭВМ
и работы пользователей, развивались инструментальные средства разработки
программ, т. е. текстов на алгоритмических языках (см. Искусственные языки). В издательском деле
А. о. т. - одно из направлений автоматизации
редакционно-издательских процессов. В этих областях термин «А. о. т.»
употребляется, как правило, в относительно узком смысле как
преобразование формы. В вычислительной лингвистике, предметом которой
является автоматический лингвистический анализ и синтез текста, а
также лингвистические аспекты общения с ЭВМ на естественном языке,
термин «А. о. т.» понимается в более широком смысле, охватывающем и
процедуры анализа содержания и синтеза (по заданному содержанию
понятного человеку) текста.
В зависимости от целей различают несколько видов А. о. т.
Преобразование текста при автоматизированном редактировании
заключается во внесении в текст, находящийся в памяти ЭВМ,
исправлений и дополнений; форматирование текста заключается в
выделении заголовков, формировании строк и страниц нужного формата,
выделении и оформлении разделов и подразделов текста для его
воспроизведения на устройствах печати ЭВМ. В процессе
автоматического набора и вёрстки текст, введённый в ЭВМ,
преобразуется в представление (код), воспроизводимое полиграфическим
оборудованием (например, фотонаборным автоматом). При
лексикографической обработке текст преобразуется в лексикографическое представление, в котором
каждому словоупотреблению соответствует определённая информация в
формируемом к этому тексту словаре.
В автоматическом лингвистическом анализе текст
последовательно преобразуется в его лексемно-морфологическое,
синтаксическое и семантическое представления. В процессе
автоматического синтеза производятся обратные
преобразования: от семантического представления через
синтаксическое и лексемно-морфологическое к собственно текстовому.
Системы автоматизированного редактирования (текстовые
редакторы) и автоматического форматирования
(форматеры), называемые вместе системами А. о. т. в узком
смысле (англ. text
processing или word processing systems), с
конца 70‑х гг. входят в состав системного программного обеспечения
практически всех типов ЭВМ. Управление текстовыми редакторами и
форматерами осуществляется через дисплей (устройство для ввода с помощью
алфавитно-цифровой клавиатуры и отображения на экране электронно-лучевой
трубки обрабатываемого текста). Изменения и дополнения в обрабатываемый
текст могут быть внесены непосредственно с помощью указателя позиции в
тексте (курсо́ра), с помощью алфавитно-цифровой клавиатуры дисплея, а
также с помощью специальных команд, воспринимаемых системой
редактирования. В последнем случае одно и то же изменение может быть
внесено одновременно во все места текста, где оно необходимо (например,
изменение написания собственного имени,
расшифровка сокращения или, наоборот,
сокращение определённого словосочетания). Текстовые редакторы и
форматеры широко используются как средства подготовки и ввода в ЭВМ
программ, программной документации, научных отчётов и других
данных.
В издательской практике системы автоматизированного редактирования
используются, как правило, совместно с системами автоматического набора
и вёрстки. В качестве составных частей в такие системы входят и
некоторые лингвистические программы, например программы переноса слов в
соответствии с орфографией данного языка,
проверки и исправления орфографии, транслитерации и транскрибирования, выделения имён собственных и
ключевых слов для автоматического составления именных и предметных
указателей (в последнем случае используются также программы
лемматизации, т. е. преобразования текстовых форм слов в
словарные).
Автоматизированные лексикографические системы, т. е. системы
автоматизации подготовки и использования словарей, включают в себя
программы и справочные данные, необходимые для лексикографической
обработки текстов. В них используются текстовые редакторы для ввода и
коррекции программ, данных и запросов к системе, программы контроля
орфографии и разметки входного текста, программы сегментации текста на слова, словосочетания, предложения и фрагменты словарных статей, программы
лемматизации и подсчёта статистики словоупотреблений, программы
загрузки, поиска и коррекции данных и др. Введённые в систему тексты
и/или словари размещаются в базах данных и снабжаются словоуказателями и
другими индексами, позволяющими по слову или его характеристикам
находить его контексты или словарные статьи, в которых оно описано.
Результатом А. о. т. в автоматизированных лексикографических
системах являются частотные словари, конкордансы (словоуказатели с
контекстами), автоматические моно- и многоязычные словари, размещаемые
в базах данных и используемые программами лексикографических систем в
качестве справочного материала при обработке новых данных. Поэтому такие
системы являются развивающимися системами. Автоматические
словари используются в системах автоматического перевода, а также в информационных
системах и системах общения с ЭВМ на естественном языке в качестве
справочников при подготовке и расширении словарей и уточнении грамматик
этих систем.
В составе лингвистического обеспечения автоматизированных
информационных систем различают три группы функций А. о. т.:
автоматическое индексирование входных документов, автоматическое
составление поисковых предписаний по тексту запросов и
автоматизированное ведение словарей системы. Ядром лингвистического
обеспечения автоматизированных информационных систем являются
информационно-поисковые тезаурусы, в
терминах которых производится индексирование вводимых в систему
текстов. Индексирование текста заключается в составлении к нему
поискового «образа», в котором указываются понятия, описываемые в
тексте, и отношения между ними. Аналогично обрабатываются и запросы к
системе. Сравнением поисковых предписаний с поисковыми образами
документов осуществляется выбор текстов запрашиваемой тематики.
Существуют и бестезаурусные системы, способные осуществлять поиск
текстов по любым сочетаниям слов, встречающихся в них. В таких системах
автоматически строятся словоуказатели к вводимым текстам.
Наиболее полно функции А. о. т. развиты в системах автоматического
перевода и системах человеко-машинного общения, где основным является
синтаксический, а в системах общения с ЭВМ - семантический анализ. Эти
наиболее сложные формы А. о. т. целиком опираются на формальный аппарат,
развитый в рамках математической
лингвистики и вычислительной лингвистики. Здесь А. о. т.
осуществляется сложными программами, называемыми языковыми, или
лингвистическими, процессорами (NLP - Natural Language
Processor). Центральной функцией языковых процессоров является
грамматический разбор (parsing). Программы
грамматического разбора (parser) используют в
качестве справочных данных формальные грамматики и словари того
языка, тексты которого служат объектом анализа или синтеза. В качестве
формальных грамматик используются расширенные грамматики непосредственных составляющих
(контекстно-свободные грамматики), трансформационные грамматики,
грамматики расширенных сетей переходов, являющиеся системами грамматик
непосредственных составляющих, и др. В качестве формальных словарей
используются прикладные (инженерные) варианты толково-комбинаторных
словарей, т. е. специальных форм семантико-синтаксических словарей,
имеющих подробную информацию о вариантных формах
слов, об их семантике и о сочетаемостных
возможностях на лексическом, семантическом и синтаксическом уровнях с
учётом морфологических ограничений. В некоторых языковых процессорах
систем автоматического перевода и систем общения с ЭВМ такие словари
могут быть использованы как для анализа, так и для синтеза текстов.
Обычно языковые процессоры содержат морфологическую, синтаксическую,
семантическую (или синтактико-семантическую) и словарную компоненты
(подсистемы программ и данных), каждая из которых реализует динамическую
модель языка на соответствующем уровне. Языковые
процессоры систем общения с ЭВМ опираются, как правило, на некоторую
систему представления знаний и взаимодействуют с ней, осуществляя
функции логического (дедуктивного) вывода. Знания часто представляются в
виде так называемых фреймов - языковых моделей определённых фрагментов
действительности или семантических сетей и образуют так называемые
базы знаний, хранимые в ЭВМ. Эти функции используются также и как
средство раскрытия неоднозначностей (разрешения омонимии), восстановления эллипсисов, установления анафорических связей в тексте и в других сложных
случаях лингвистического анализа.
С 70‑х гг. наблюдается тенденция к интеграции всех подходов к
конструированию систем А. о. т. в рамках искусственного интеллекта -
направления в информатике (computer science),
связанного с созданием сложных человеко-машинных и робототехнических
систем, моделирующих человеческую деятельность в различных сферах и
предметных областях. В таких системах текст на естественном или
искусственном языке является как источником накопления знаний системы,
так и источником данных для выбора её поведения, а также средством
взаимодействия системы с человеком. Здесь функции редактирования всё
больше сливаются с функциями содержательной обработки, образуя единый
аппарат понимания текста. Это открывает возможности для автоматизации
наиболее сложных областей человеческой деятельности, требующих
затрат прежде всего интеллектуального труда, таких, как
редакционно-издательские процессы, извлечение информации из текстов,
медицинская и техническая диагностика, экспертная деятельность.
проектирование машин и сооружений, изготовление проектной
документация, управление социально-экономическими системами. Во всех
этих случаях А. о. т. играет первостепенную роль. Однако в таких
массовых, «промышленных» применениях А. о. т. должна опираться на
мощную информационную поддержку в виде автоматизированных словарных
картотек, автоматических словарей, грамматик и других форм представления
лингвистических данных в ЭВМ. Разработка таких систем приобретает
форму машинных фондов национальных
языков, национальных автоматизированных лексикографических служб
и т. п.
Лингвистическое обеспечение в системе автоматического перевода
третьего поколения. Предварительная публикация, М., 1978;
Хисамутдинов В. Р., Авраменко В. С.,
Легоньков В. И., Автоматизированная система информационного
обеспечения разработок, М., 1980;
Андрющенко В. М., Автоматизированные лексикографические
системы, в кн.: Теоретические и прикладные аспекты вычислительной
лингвистики, М., 1981, с. 71-88;
Попов Э. В., Общение с ЭВМ на естественном языке, М.,
1982;
Белоногов Г. Г., Кузнецов Б. А., Языковые средства
автоматизированных информационных систем, М., 1983;
Модели общения и лингвистические процессоры, в кн.: Представление
знаний в человеко-машинных и робототехнических системах. Том A. -
Фундаментальные исследования в области представления знаний, М., 1984,
с. 183-210;
Борковский А., Хельбиг Г., Системы подготовки
текста, там же, том B. - Инструментальные средства разработки систем,
ориентированных на знания, М., 1984, с. 73-87;
Системы общения с ЭВМ на естественном языке, там же, том C. -
Прикладные человеко-машинные системы, ориентированные на знания, М.,
1984, с. 36-69;
Андрющенко В. М., Машинный фонд русского языка: постановка
задачи и практические шаги, «Вопросы языкознания», 1985, № 2;
Hays D. G., Introduction to computational
linguistics, N. Y., [1967];
Bátori I. S., Linguistische Datenverarbeitung,
«Sprache und Datenverarbeitung», 1977, № 1, р. 2-11;
Knuth D. E., Tau Epsilon Chi, a system for
technical text, Providence, 1979, «SIGART Newsletter», 1982, № 79;
Meyrowitz N., Dam A. van, Interactive
editing systems, pt 1-2, «Computing Surveys», 1982, v. 14, № 3;
Furuta R., Scofield J.,
Shaw A., Document formatting systems, там же.
В. М. Андрющенко.